查看原文
其他

高端论坛|复旦大学教授赵斌:万维网科学的历史、发展和挑战

2017-02-13 慧天地

点击图片上方蓝色字体“慧天地”即可订阅

(更多精彩,请留意文末推荐)

我最早接触互联网,是1995年参加中国科学院百所联网科学数据库建设之时。那是,频繁地在Netscape或IE中输入WWW的时候,就很奇怪,这三个W组成的字母究竟是什么呢?通过学习,慢慢理解了,WWW是World Wide Web的缩写(有时候仅仅用Web,也是WWW的含义),是互联网所提供的服务其中之一,一个由许多互相链接的超文本组成的系统。其核心,由统一资源标识符(URI)、超文本传送协议(HTTP)和超文本标记语言(HTML)三个标准构成。提姆·伯纳斯·李(Tim Berners-Lee)被称为 WWW之父,他在1989年,看到了将超文本系统与互联网结合在一起的机会,并在1990年9月至12月创建了这样的系统,并于1991年的8月23日正式向公众开放。1994年6月,北美的中国新闻电脑网络(CND)在为其电子刊物《华夏文摘》推出网站服务时,中国科学院已故院士、科学网李小文先生通过电子邮件提出翻译为“万维天罗地网”,简称“万维网”,正好与汉语拼音的简称完全相符,大家一致认为这个译法“信、达、雅”面面俱到,一锤定音。于是,“万维网”成为World Wide Web的标准翻译被广泛采纳[1]。


万维网的诞生,从根本上改变了我们生活的方方面面,对世界产生了深刻而又复杂的影响。对于一些企业家来说,她创造了巨大的财富,它重塑产业格局导致业务延伸;对社会来说,她带来言论和信息自由,即便充斥着粗俗对话和网络攻击;对科学研究来说,她已经改变了科学家沟通、合作和教育的方式。人们越来越认识到,必须有一个明确的研究议程来了解当前不断变化的潜在网络,更需要创建一个新的领域来探索万维网潜在的科学、工程原理和社会影响。2005年9月,在伦敦举办的英国计算机协会的研讨会上,万维网研究的科学家们讨论了构成万维网科学内核的科学和工程问题。与会人员考察了万维网的新趋势,并就如何利用新媒体的机会、数据资源以及知识库“网络化”的具体类型进行了激烈辩论。该研讨会涵盖了广泛的技术和法律主题。例如,从已经进行了许多研究的万维网构架和拓扑结构到网络连接的法律问题等等。这项工作使得一些人认为万维网的发展遵循一个进化路径,建议在一个生态条件下观察万维网。


分析万维网需要更好的数据模型是显而易见的。给定一个主题,如何找到权威的网页?对于这样一个简单的问题,传统的信息检索技术对于规模越来越大的网络是不够。人类在网络上交流的话题是可以通过链接矩阵进行分析的,信息检索和基于结构的搜索中的数学问题,定会随着万维网的发展变成一个热门的研究领域。然而,为模拟万维网所开发的数学框架,在方法有很大的不同。虽然系统分析中面向过程的方法、人工智能和语义研究的符号建模方法、以及在网络分析中所使用的数学方法都是相关的,但目前还没有一个数学的模型可以统领一切。十多年前的万维网正在经历一次从文本文档到数据资源的扩展。在人类可读文档的网络中,自然语言处理技术可以从这些文本中提取一些语义。这些方法是基于“隐藏”的语义,但计算机通过使用启发式技术来概括人类之间通信的意图。在关系数据和逻辑判断的“语义网”中,如果将计算机逻辑包含在这些元素中,就可以做得更多。研究人员可使用新的、基于逻辑的语言来回答问题,进行假设检查和数据建模。


次年(2006年),提姆·伯纳斯·李等在Science上发表了一篇文章“创建万维网科学”[2],提出应形成专门的跨学科研究团体,推动万维网科学的各种学术计划和研讨会。这里讨论万维网的时候,特意加上了“科学”二字。物理学和生物学是人们能理解的科学,它们分析自然世界,试图通过寻找微观规律来外推到宏观领域,这是建立在观测行为基础上的研究。相比之下,计算机科学,虽然也进行局部分析,但主要还是综合的。如果要产生新的计算机行为,就涉及到构建新语言和算法。万维网科学正是这两个特征的结合。万维网是通过正式指定的语言和协议创建的工程空间。然而,由于人类是网页的创造者,与之有紧密的联系,其相互作用形成了万维网上宏观尺度的全新模式。人类的互动受社会习俗和法律的约束。因此,万维网科学本质上必须是跨学科的,其目标一方面是要了解万维网的发展,另一方面又要创造新的方法让更强大和更有利的模式出现。


又是十年过去了,互联网已经成为信息传播的主要手段,不管是在科学研究还是公共领域,万维网日益成为一个重要的资源,并频频对现有的技术和社会管理提出挑战。十年前,几乎没有多少人使用智能手机,大数据的概念还只是在学术圈有人提及,更没有人知道,数据科学会成为世界上最酷的工作。十年后,社会已经越来越依赖于互联网技术,几乎涵盖了通讯与处理信息的方方面面,网络访问正变得越来越移动且无处不在。于是,2006年与提姆·伯纳斯·李一起合作发表那篇里程牌文章的两位合作者James Hendler和Wendy Hall在十年后再次撰文,探讨了近十年来万维网科学的发展[3]。


他们认为,过去十年万维网科学的研究人员一直专注于万维网各方面的发展。如今对数据科学的兴趣可归因于大量的信息存储,无论是结构化的(元数据组织在明确的字段中,如温度或降水)还是非结构化的(文档,图像和视频)数据,都为网络所用。基于移动网络平台的信息,如智能手机的地理定位信息,越来越多地应用于打车、旅行等新兴产业和共享经济(如共享单车)中。社交媒体分析师们希望能从数学和社会两个方面解析一些问题,通过结合社交网站中所分享的信息和移动应用程序(apps)中所收集的信息能更全面地反映某种趋势。虽然移动应用程序看起来并不像网页浏览,但它们都是依赖于同一个网络体系结构。现在,世界各地各级政府都习惯通过网络发布一系列开放数据了——从实时公共交通到到环境病原微生物报告。网络出版也正让研究人员能更快更方便地获得杂志和会议论文,还有一些在线论坛正为科学家和更广泛的研究团体提供新的信息资源。维基百科等网站是由多人互动所推动的,越来越多的公民科学网站,如拥有众多公民科学项目的宇宙动物园网站(Zooniverse),为科学家与万维网志愿者们的互动提供了新的方式。这些网站利用了数以百万计人的认知能力,其结果是“社交机器”在社会影响力方面的影响是极其强大的,仅仅维基百科每月的浏览量就高达数十亿。


2009年,IBM提出“智慧地球”概念,被美国人认为与当年的“信息高速公路”有许多相似之处。当年,美国将新能源和物联网列为振兴经济的两大重点,中国政府总理“感知中国”的讲话也推动将物联网正式列为国家五大新兴战略性产业之一。物联网这个物物相连的互联网技术,让所有的物体都具有收集和交换数据的功能,无疑会产生更多的信息,这些信息不仅是个人的运动数据,还包括现代社会中有关能源和各种资源的的信息。可获得信息的增长也导致许多领域对数据分析的利用越来越多,自此,网络科学、数据科学和万维网科学正帮助那些为解决大尺度问题的科学家和工程师们产生新的技术。


2012年,遍布世界各地的万维网科学实验室开展了一项研究,称为“网络观测台”(Web Observatory),旨在收集和分享有关万维网利用的数据。随着研究的开展,该工作从静态分析转移到实时跟踪万维网使用的变化,并不断改善预测模型来了解互联网上信息使用的影响。在计算机科学中,与万维网相关的研究主要集中在信息检索算法以及通过互联网的信息路由算法。而计算机科学之外的研究人员却越来越依赖于网络,但他们也没有办法探索万维网上所出现的新趋势,也没有与万维网研究群体讨论如何为科学家的需求服务。万维网科学研究人员正在研究我们可以从众包、群体智能、公民科学以及各种基于万维网技术所累积的数据中获得什么。那些设计成功且妥善运营的网站有什么开发原则,如何为科学家和其他网站创立者降低进入门槛。


当然,随着万维网信息的不断增长,数据提供者与信息潜在用户之间有关隐私问题的张力也会随之加剧。如互联网管理及其政策、万维网工程原则、数字身份,数字文化,以及社会面临的隐私和道德问题,因为我们现在的生活越来越多是在线的。目前,更多的学生正进入科学、技术、工程和数学(STEM)领域,这带来了不菲的经济优势。无论在发达国家还是发展中国家都有一个共同认识,在当今社会发展中社会科学和人文科学的价值较小。然而,万维网不仅是机器的网络,它是世界上数十亿的人以前所未有的方式相互作用的网络。关注万维网科学和工程对社会的影响,同时社会也对万维网和互联网的发展产生影响,这需要我们深刻地理解社会-技术系统。因此,万维网科学必须保持一个跨学科的追求,团结一大批来自物理和数学、工程、人文科学和社会科学等许多领域的研究人才,这样万维网才能继续使人们团结在一起,为社会提供难以想象的机会。

参考资料:
(1) “万维网”一词是李小文院士的首创与独家发明——大概率事件
(2) Tim Berners-Lee, Wendy Hall, James Hendler, Nigel Shadbolt, Daniel J. Weitzner, 2006. Creating a Science of the Web. Science, 313: 769-771.
(3) James Hendler, Wendy Hall, 2016. Science of the World Wide Web. Science, 354: 703-704.


来源:赵斌科学网博客(版权归原作者和刊发媒体所有)

喜欢本文欢迎分享至朋友圈;其他兄弟平台如需转载请在文章开头作者栏位置注明:慧天地。


推荐

点击下文直接阅读

高端论坛|李维森副局长:地理国情常态化监测工作的思考

高端论坛|南京师范大学博士生导师张雪英教授:大数据和互联网+环境下地名地址数据管理与服务

国家网信办发布新政 ,事关所有网络产品和服务从业者!
未来人类的意识可以上传,你还是你吗?

【慧天地】敬告


【慧天地】是服务测绘地理信息行业的公共公益平台,旨在:传递政府声音;发现行业亮点;增强学术交流;共享优质资源;关注本硕博学子的学习、就业;重视地理信息文化的传播、弘扬。【慧天地】高度重视版权,对于原创、委托发布的稿件,会烦请作者、委托方亲自审核通过后才正式推发;对于来自网站、期刊、书籍、微博、微信公众号等媒介的稿件,会在作者栏或者文章末尾显著标明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请后台留言,我们会及时删除。先做人,后做事;心有多大,舞台有多大。感谢大家一直以来对【慧天地】的关注和支持!

编辑:游志龙 蔡丽华

审核:朱林烨

指导:万剑华教授(微信号wjh18266613129)

❤ 慧天地 ❤

有兴趣加入【慧天地】交流群的朋友,请加赵楠(微信号zn846546896)为好友。

欢迎大家推荐精品稿件,投稿邮箱:geomaticshtd@163.com

       (☆V☆)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存